草庐IT

python - 最简单的python相当于R的gsub

全部标签

python - 使用 Python 读取 UTF-8 XML 并将其写入文件

我正在尝试解析UTF-8XML文件并将其中的某些部分保存到另一个文件中。问题是,这是我的第一个Python脚本,我对我发现的字符编码问题感到非常困惑。我的脚本在尝试将非ascii字符写入文件时立即失败,但它可以将其打印到命令提示符(至少在某种程度上)这是XML(至少从重要的部分来看,它是一个包含UI字符串的*.resx文件)baripsumöä这是我的python脚本fromxml.dom.minidomimportparsenames=[]values=[]defgetStrings(path):dom=parse(path)data=dom.getElementsByTagName

python - 没有递归搜索python的xml解析

这让我精神错乱,我可能已经研究它很长时间了,所以希望能得到一些帮助,以防止失去/恢复我的理智!基于食物的xml只是我希望实现的一个示例。我有以下文件,我试图将其放入图表中,因此小麦和水果是深度为0的父项。印度是深度为1的小麦的子项,依此类推。每一层都有一些关键字。所以我想出去的是layer,depth,parent,keywordswheat,1,ROOT,[bread,pita,narn,loaf]indian,2,wheat[chapati]mumbai,3,indian,purifruit,1,ROOT,[apple,orange,pear,lemon]这是一个示例文件-chap

xml - 有没有一种简单的方法可以使用 XSLT 来检测和更正格式不正确的 XML?

例如:Mr.TitleThisisoneparagraph.请注意,div标签的属性id没有赋值。我想用XSLT更正它,但是当我将XSL应用于此XML时,它会在处理之前出错“XML解析错误:格式不正确”。有人知道解决这个问题的方法吗?谢谢! 最佳答案 你想要的是不可能的。尽管XSL应用程序的结果不必格式正确,但它的输入必须格式正确。 关于xml-有没有一种简单的方法可以使用XSLT来检测和更正格式不正确的XML?,我们在StackOverflow上找到一个类似的问题:

具有枚举和联合的 xml 简单类型

解析以下xml模式会产生此错误:元素属性:架构解析器错误:属性声明。“current-state”,属性“type”:QName值“covered-state”未解析为(n)简单类型定义。WXS架构memory.xsd编译失败这是负责的代码:所以这应该做的是合并字符串和整数的枚举,以便xml文件接受属性当前状态的“0”或“1”或“COVERED”或“UNCOVERED”。有人能指出我正确的方向吗?谢谢! 最佳答案 你的建议也行,但我是这样解决的:谢谢! 关于具有枚举和联合的xml简单类型

xml - XML 的 XSL 转换 - 简单的 .NET 示例?

我有一个基于.NET的应用程序,它接收传入的XML文件。我想使用我拥有的XSL样式表将XML文件转换为HTML。这是我的过程...从文件系统中读取提交的XML文件将XSL应用到XML以进行转换将生成的HTML打印为HTML屏幕有没有人有任何示例代码来演示如何做到这一点?谢谢。 最佳答案 这是来自MSDN.NETdocumentation的一个非常简短的示例关于使用Transform()的方法XslCompiledTransform类,它是.NET的标准部分(在System.Xml.Xsl命名空间中实现)://Loadthestyle

python - 斯皮科的API?刮Spokeo

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion是否有spokeo的API?我想获得json或xml格式的结果,我试图为它找到一个api但找不到。有没有人尝试过使用或不使用api来抓取spoke?我确定我们可以通过一般方式进行抓取,但我不知道当搜索结果出现多个位置区域时如何继续。谢谢

python - 在 python 中解析一个大的 (~40GB) XML 文本文件

我有一个XML文件,我想用python解析它。最好的方法是什么?将整个文档记入内存将是灾难性的,我需要以某种方式一次读取一个节点。我所知道的现有XML解决方案:元素树迷你xml但由于我提到的问题,我担心它们无法正常工作。我也无法在文本编辑器中打开它-generao中关于处理巨型文本文件的任何好的提示? 最佳答案 首先,您是否尝试过ElementTree(内置的纯Python或C版本,或者更好的是lxml版本)?我很确定他们都没有真正将整个文件读入内存。当然,问题在于,无论是否将整个文件读入内存,生成的解析树最终都会在内存中。Elem

python - 如何使用 python 忽略许多 XML 文件中的标签

我有很多xml文件,里面有很多文本。这段文字我需要小写并删除标点符号。但是我不知道如何使用python说我希望它忽略所有标签。我找到了一个名为ElementTree的xml解析器,我有一个正则表达式来查找标签:pattern=re.compile('')我测试了它,它只给我第一个标签中的文本(有很多标签名为)。为什么?我在一个字符串中进行测试以进行不同的测试以获取所有标签:text="aaaaaaabbbbbbbbbccccccddddd"pattern=re.compile('')tmp=pattern.findall(content,re.DOTALL)它给了我:['','',''

python ElementTree 有子元素的文本

当我尝试读取有子元素的文本时,它给出None:查看xml(比如test.xml):MemoryRegionabcd以及想要读取“abcd”的python代码:importxml.etree.ElementTreeasETtree=ET.parse('test.xml')root=tree.getroot()printroot.find("test").text当我运行这个python时,它给出None,而不是abcd。如何在这种情况下读取abcd? 最佳答案 使用Element.tail属性:>>>importxml.etree.E

python - 使用 ElementTree XML API 解析 URL XML

下面是我的示例代码,我在后台使用wget下载statsxml.jsp,然后解析xml。我的问题是现在我需要解析多个XMLURL,正如您在下面的代码中看到的,我正在使用一个文件。如何实现?示例网址-http://www.trion1.com:6060/stat.xml,http://www.trion2.com:6060/stat.xml,http://www.trion3.com:6060/stat.xmlimportxml.etree.cElementTreeasETtree=ET.ElementTree(file='statsxml.jsp')root=tree.getroot()